V2EX  ›  英汉词典
Enqueued related words: TD Error, Eligibility Trace

Temporal-Difference Learning

释义 Definition

时序差分学习(TD 学习):强化学习中的一种方法,通过比较相邻时间步的预测差(“时间上的差分误差”)来更新价值估计;它把“基于采样的学习”(不必等到回合结束)与“动态规划式的自举更新”(用当前估计去更新当前估计)结合起来。常见形式包括 TD(0)TD(λ)Q-learningSARSA 等也与 TD 思想密切相关。

发音 Pronunciation (IPA)

/ˈtɛmpərəl ˈdɪfərəns ˈlɜːrnɪŋ/

例句 Examples

I used temporal-difference learning to estimate the value of each state.
我用时序差分学习来估计每个状态的价值。

Temporal-difference learning updates predictions online by minimizing the error between consecutive estimates, which makes it effective in long tasks with delayed rewards.
时序差分学习通过最小化相邻估计之间的误差来进行在线更新,因此在奖励延迟、任务很长的场景中很有效。

词源 Etymology

temporal 意为“时间的、时序的”,difference 指“差分/差值”,合起来强调“跨时间步的差”。这一术语在强化学习研究中被系统化使用,尤其与 Richard S. Sutton 等人的工作相关:其核心思想是用下一时刻的预测(或回报与预测的组合)来更新当前预测,即所谓的自举(bootstrapping)

相关词 Related Words

文学与经典著作中的用例 Literary Works

  • Reinforcement Learning: An Introduction(Sutton & Barto):系统讲解 TD 学习、TD(0)、TD(λ) 与相关算法,是该术语最常见的出处之一。
  • “Temporal Difference Learning and TD-Gammon”(Gerald Tesauro):以 TD 方法训练西洋双陆棋程序 TD-Gammon,使 TD 学习广为人知。
  • “The Convergence of TD(λ) for General λ”(Sutton):讨论 TD(λ) 的理论性质与收敛相关问题。
  • “Q-learning”(Watkins):与 TD 思想紧密相关的无模型控制方法,常与 TD 学习一起在强化学习文献中出现。
关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   2000 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 13ms · UTC 12:22 · PVG 20:22 · LAX 04:22 · JFK 07:22
♥ Do have faith in what you're doing.